Wines Exploration by Talita_Barcelos

Este relatório explora uma base contendo qualidade e atributos quimicos de aproximadamente 6497 vinhos sendo eles tintos e brancos.

Univariate Plots Section

## 'data.frame':    6497 obs. of  14 variables:
##  $ X                   : int  2151 1185 194 801 92 657 206 2365 1305 643 ...
##  $ fixed.acidity       : num  7 6.7 6.6 7.2 8.6 10.7 12.8 6.6 7.6 9.9 ...
##  $ volatile.acidity    : num  0.24 0.64 0.15 0.61 0.49 0.43 0.3 0.32 0.79 0.54 ...
##  $ citric.acid         : num  0.34 0.23 0.34 0.08 0.28 0.39 0.74 0.24 0.21 0.45 ...
##  $ residual.sugar      : num  3 2.1 5.1 4 1.9 2.2 2.6 1.3 2.3 2.3 ...
##  $ chlorides           : num  0.035 0.08 0.055 0.082 0.11 0.106 0.095 0.06 0.087 0.071 ...
##  $ free.sulfur.dioxide : num  36 11 34 26 20 8 9 42.5 21 16 ...
##  $ total.sulfur.dioxide: num  102 119 125 108 136 32 28 204 68 40 ...
##  $ density             : num  0.991 0.995 0.994 0.996 0.997 ...
##  $ pH                  : num  3.18 3.36 3.36 3.25 2.93 2.89 3.2 3.59 3.12 3.39 ...
##  $ sulphates           : num  0.43 0.7 0.42 0.51 1.95 0.5 0.77 0.51 0.44 0.62 ...
##  $ alcohol             : num  12.2 10.9 9.6 9.4 9.9 9.6 10.8 9.2 9.2 9.4 ...
##  $ quality             : int  6 5 5 5 6 5 7 5 5 5 ...
##  $ tipo_vinho          : chr  "Branco" "Tinto" "Branco" "Tinto" ...
##        X        fixed.acidity    volatile.acidity  citric.acid    
##  Min.   :   1   Min.   : 3.800   Min.   :0.0800   Min.   :0.0000  
##  1st Qu.: 813   1st Qu.: 6.400   1st Qu.:0.2300   1st Qu.:0.2500  
##  Median :1650   Median : 7.000   Median :0.2900   Median :0.3100  
##  Mean   :2044   Mean   : 7.215   Mean   :0.3397   Mean   :0.3186  
##  3rd Qu.:3274   3rd Qu.: 7.700   3rd Qu.:0.4000   3rd Qu.:0.3900  
##  Max.   :4898   Max.   :15.900   Max.   :1.5800   Max.   :1.6600  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.600   Min.   :0.00900   Min.   :  1.00     
##  1st Qu.: 1.800   1st Qu.:0.03800   1st Qu.: 17.00     
##  Median : 3.000   Median :0.04700   Median : 29.00     
##  Mean   : 5.443   Mean   :0.05603   Mean   : 30.53     
##  3rd Qu.: 8.100   3rd Qu.:0.06500   3rd Qu.: 41.00     
##  Max.   :65.800   Max.   :0.61100   Max.   :289.00     
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.0        Min.   :0.9871   Min.   :2.720   Min.   :0.2200  
##  1st Qu.: 77.0        1st Qu.:0.9923   1st Qu.:3.110   1st Qu.:0.4300  
##  Median :118.0        Median :0.9949   Median :3.210   Median :0.5100  
##  Mean   :115.7        Mean   :0.9947   Mean   :3.219   Mean   :0.5313  
##  3rd Qu.:156.0        3rd Qu.:0.9970   3rd Qu.:3.320   3rd Qu.:0.6000  
##  Max.   :440.0        Max.   :1.0390   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality       tipo_vinho       
##  Min.   : 8.00   Min.   :3.000   Length:6497       
##  1st Qu.: 9.50   1st Qu.:5.000   Class :character  
##  Median :10.30   Median :6.000   Mode  :character  
##  Mean   :10.49   Mean   :5.818                     
##  3rd Qu.:11.30   3rd Qu.:6.000                     
##  Max.   :14.90   Max.   :9.000

Existem 6497 objetos em 14 variáveis.Vou avaliar a distribuição da qualidade dos preços:

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.818   6.000   9.000

A qualidade apresenta ua distribuição quase normal com o pico mais para o lado esquerdo. As pontuações de qualidade variam de 0 a 10 sendo 10 o de melhor qualidade. A média de qualidade é 5,818 que pode ser observada no gráfico. Não existem vinhos avaliados com 0 e nem com 10, todos ficam com pontuação entre 3 e 9. Analisando Fixed Acidity:

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O Fixed Acidity tem uma média de 7. Ele varia de 3,8 e 15,9.A distribuição dele é desviado para a direita. Após aplicar transformação por log vemos uma distribuição mais normalizada.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O volatile.acidity tem uma média de 0,3. A distribuição dele é desviado para a direita.Após transformação por log vejo uma distribuição mais normalizada, quase bimodal.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O citric acid tem uma média de 0,31 e varia de 0 a 1,66. A distribuição dele á desviada para a direita. Parece haver algum outlier na faixa entre 1,0 e 1,66. Vou dar um zoom no outlier

##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 3497 3153           7.6             0.25        1.23            4.6
## 5802  746           7.4             0.20        1.66            2.1
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 3497     0.035                  51                  294 0.99018 3.03
## 5802     0.022                  34                  113 0.99165 3.26
##      sulphates alcohol quality tipo_vinho
## 3497      0.43    13.1       6     Branco
## 5802      0.55    12.2       6     Branco

São dois outliers mas avaliando cada caracteristica deles eles não parecem ser problemas de dados.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O residual.sugar tem uma média de 5,44 e varia entre 0,6 e 65. Entre 20 e 60 parece haver outliers,a maior concentração de açucar residual fia entre 1 e 3. Após transformação por log a distribuição do açucar parece ser bimodal. Vou dar um zoom no outlier:

##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 1312 2782           7.8            0.965        0.60           65.8
## 2035 1664           7.9            0.330        0.28           31.6
## 5338 1654           7.9            0.330        0.28           31.6
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 1312     0.074                   8                  160 1.03898 3.39
## 2035     0.053                  35                  176 1.01030 3.15
## 5338     0.053                  35                  176 1.01030 3.15
##      sulphates alcohol quality tipo_vinho outlier
## 1312      0.69    11.7       6     Branco     Nâo
## 2035      0.38     8.8       6     Branco     Nâo
## 5338      0.38     8.8       6     Branco     Nâo

São três outliers do tipo vinho branco. No entanto avaliando cada caracteristica deles eles não parecem ser problemas de dados.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O chlorides tem uma média de 0,05 e varia entr 0,009 e 0,611. A distribuição dele tem um desvio para direita.Após transformação por log podemos ver uma distribuição normal quase bimodal. Parece haver um outlier entre 0,4 e 0,6. Vou dar um zoom nesse outlier:

##        X fixed.acidity volatile.acidity citric.acid residual.sugar
## 3602 259           7.7             0.41        0.76            1.8
## 4889 152           9.2             0.52        1.00            3.4
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 3602     0.611                   8                   45  0.9968 3.06
## 4889     0.610                  32                   69  0.9996 2.74
##      sulphates alcohol quality tipo_vinho outlier
## 3602      1.26     9.4       5      Tinto     Nâo
## 4889      2.00     9.4       4      Tinto     Nâo

São dois outliers de vinho tinto. Avaliando cada caracteristica deles eles não parecem ser problemas de dados.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O free.sulfur.dioxide tem uma média de 30,53 e varia entre 1 e 289. O pico de concentração dele fica entre 20 e 30. Parece haver um outlier entre 150 e 300. Vou verificar esse outlier:

##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 4015 4746           6.1             0.26        0.25            2.9
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 4015     0.047                 289                  440 0.99314 3.44
##      sulphates alcohol quality tipo_vinho outlier
## 4015      0.64    10.5       3     Branco     Nâo

Existe um outlier do tipo vinho branco, avaliando suas caracteristicas ele não parece ser um problema de dados.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O total.sulfur.dioxide tem uma média de 115,7 e varia entre 6 e 440. Seu pico fica entre 120 e 150 e ele tem uma distribuição desviada para a direita.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

A densidade tem uma média de 0,99 e varia entre 0,98 e 1,03. Parece haver um outlier entre 1,01 e 1,03. Vou verificar esse outlier:

##         X fixed.acidity volatile.acidity citric.acid residual.sugar
## 1312 2782           7.8            0.965         0.6           65.8
##      chlorides free.sulfur.dioxide total.sulfur.dioxide density   pH
## 1312     0.074                   8                  160 1.03898 3.39
##      sulphates alcohol quality tipo_vinho outlier
## 1312      0.69    11.7       6     Branco     Sim

É o mesmo outlier avaliado na caracteristica de total.sulfur.dioxide e na residual sugar.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O ph tem uma média de 3,21 e varia entre 2,72 e 4,0. Segundo a Revista Adega vinhos são naturalmente acidos, a maioria indo de 2,8 a 4 e isso é percebido nessa base. O ph possui uma distribuição normal.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Os sulfatos tem uma média de 0,53 e variam de 0,22 e 2,0. Sua distribuição é desviada para direita. Após transformação por log podemos ver uma distribuição mais normalizada.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O Alcool tem uma média de 10,49 e varia de 8 a 14,90. Segundo a revista Adega a uva está madura para o vinho quando seu potencial alcoolico se situa etnre 11% e 13% de volume. Após a transformação por square root vamos uma distribuição multimodal.

## Warning: Ignoring unknown parameters: binwidth, bins, pad

Existem dois tipos de vinho. Branco e Tinto. Nessa base existem mais registros de vinhos brancos do que tintos. São 4898 de vinhos tintos e 1599 de vinhos brancos. Vou avaliar a qualidade de vinhos brancos e de vinhos tintos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000

A qualidade dos vinhos tintos segue uma distribuição normal. A qualidade máxima é 8.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.878   6.000   9.000

A qualidade dos vinhos brancos também segue uma distribuição normal um pouco mais equilibrada do que as de vinho tinto. Apesar de sua média ser bem proxima das dos vinhos tintos ele tem vinhos com qualidade avaliada de 9 pontos enquanto os vinhos tintos chegam apenas até 8.

Verificando todas as variáveis vou criar uma variável com o total de acidos dentro do vinho. Isso em faz pensar se o total de acido contribui para o resultado de ph e consequentemente na qualidade do vinho.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.91   13.12   14.25   14.77   15.72   32.16

O total de acidos vai de 7,91 a 32,16. A distribuição é desviada para direita. Após transformação por log temos uma distribuição normal.

Segundo o site Segredos do Vinho é possivel classificar o teor de açucar do vinho e densidade. Vou criar esse novo campo:

## Warning: Ignoring unknown parameters: binwidth, bins, pad

Existem poucos vinhos doces e muitos vinhos secos na base. Quero criar duas caracteristicas que indicam a relação entre Alcool e Acidez já que no preparo do vinho esses dois componentes são elementos chaves.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

A distribuição é normal com desvio para direita. Ao aplicar log no eixo y para melhor visualizar os dados é possivel verificar uma distribuição normal. Vou verificar como é a distribuição da qualidade nos vinhos considerados Meio Secos

## Warning: Ignoring unknown parameters: binwidth, bins, pad

## Warning: Ignoring unknown parameters: binwidth, bins, pad

## Warning: Ignoring unknown parameters: binwidth, bins, pad

Os poucos vinhos doces que existem na base são bem avaliados. Isso poderia ser um indicativo de qualidade mas como são poucos vinhos fica dificil validar a amostra. A distribuição dos vinhos Meio Seco e Seco é normal. Nas proximas etapas voltarei a analise a qualidade em plots de densidade por acidez e açucar.

Fiquei pensando se os outliers encontrados podem indicar exatamente problemas de qualidade. Nos próximos passos vou avaliar essa relação.

Univariate Analysis

What is the structure of your dataset?

Existem 6497 objetos em 12 features (Acidez fixa, acidez volatil, acidez citrica, açucar residual, cloridios, dioxido de sulfureto livre, dioxido de sulfureto total, densidade, ph, sulfatos, alcohol e tipo de vinho).

Desses 6497 vinhos, 75% é vinho tinto. A média de qualidade geral dos vinhos é 5,818. Não existem vinhos avaliados com 0 e nem com 10 A maioria dos vinhos é seco, ou seja, possui uma quantidade de açucar residual menor do que 5. O ph dos vinhos varia de 2,72 e 4,0. Vinhos são naturamente ácidos e isso se reflete na base. A média de Alcool é de 10,49

What is/are the main feature(s) of interest in your dataset?

As principais caracteristicas deste dataset são qualidade, ph, Alcool e Açucar. Eu gostaria de determinar quais carateristicas são as melhores para prever a qualidade de um vinho, eu suspeito que a combinação dessas três caracteristicas podem ser usadas para fazer a previsão.

What other features in the dataset do you think will help support your investigation into your feature(s) of interest?

Total de Acidez Total de Dioxido de Sulfureto Densidade Total de Cloreto de Sódio

Essas caracteristicam podem contribuir na qualidade mas acredito que Total de Acidez e densidade contribuam mais.

Did you create any new variables from existing variables in the dataset?

Eu criei a caracteristica de Total de Acidos onde somei os três tipos de acidos existentes na base: Acidez fixa, acidez volatil e acido citrico. Acidez diz muito sobre um vinho já que o mesmo precisa ter um equilibrio entre alcool e acidez. Por esse motivo criei um indicador que calcula a quantidade de acidez por % de Alcool.

Também criei uma classificação para o vinhos em seco, meio seco e suave com base na quantidade de açucar. Vinhos com açucar abaixo de 5g/l são considerados secos, vinho com quantidade de açucar entre 5 e 20 são meio secos e vinhos com mais de 20g/l de açucar são considerados suaves.

Of the features you investigated, were there any unusual distributions? Did you perform any operations on the data to tidy, adjust, or change the form of the data? If so, why did you do this?

Sim, o total de acidez tinha um desvio para a direita, eu fiz transformação de log dessa variável e a distribuição ficou normal. O mesmo ocorreu para o Dioxido de sulfureto total, Indicador de acidez e Sulfatos total.

Bivariate Plots Section

##                                X fixed.acidity volatile.acidity
## X                     1.00000000   -0.39272798      -0.32239014
## fixed.acidity        -0.39272798    1.00000000       0.21900826
## volatile.acidity     -0.32239014    0.21900826       1.00000000
## citric.acid          -0.01621292    0.32443573      -0.37798132
## residual.sugar        0.17700044   -0.11198128      -0.19601117
## chlorides            -0.28736974    0.29819477       0.37712428
## free.sulfur.dioxide   0.22896632   -0.28273543      -0.35255731
## total.sulfur.dioxide  0.25055830   -0.32905390      -0.41447619
## density              -0.34911478    0.45890998       0.27129565
## pH                   -0.23309378   -0.25270047       0.26145440
## sulphates            -0.24663537    0.29956774       0.22598368
## alcohol               0.19715703   -0.09545152      -0.03764039
## quality               0.09077151   -0.07674321      -0.26569948
## total_acidos         -0.40677256    0.99813832       0.27811079
## indicador_acidez     -0.42795508    0.86193316       0.25785683
##                      citric.acid residual.sugar   chlorides
## X                    -0.01621292     0.17700044 -0.28736974
## fixed.acidity         0.32443573    -0.11198128  0.29819477
## volatile.acidity     -0.37798132    -0.19601117  0.37712428
## citric.acid           1.00000000     0.14245123  0.03899801
## residual.sugar        0.14245123     1.00000000 -0.12894050
## chlorides             0.03899801    -0.12894050  1.00000000
## free.sulfur.dioxide   0.13312581     0.40287064 -0.19504479
## total.sulfur.dioxide  0.19524198     0.49548159 -0.27963045
## density               0.09615393     0.55251695  0.36261466
## pH                   -0.32980819    -0.26731984  0.04470798
## sulphates             0.05619730    -0.18592741  0.39559331
## alcohol              -0.01049349    -0.35941477 -0.25691558
## quality               0.08553172    -0.03698048 -0.20066550
## total_acidos          0.29576322    -0.12249215  0.31713084
## indicador_acidez      0.24619930     0.08299906  0.39075615
##                      free.sulfur.dioxide total.sulfur.dioxide     density
## X                             0.22896632           0.25055830 -0.34911478
## fixed.acidity                -0.28273543          -0.32905390  0.45890998
## volatile.acidity             -0.35255731          -0.41447619  0.27129565
## citric.acid                   0.13312581           0.19524198  0.09615393
## residual.sugar                0.40287064           0.49548159  0.55251695
## chlorides                    -0.19504479          -0.27963045  0.36261466
## free.sulfur.dioxide           1.00000000           0.72093408  0.02571684
## total.sulfur.dioxide          0.72093408           1.00000000  0.03239451
## density                       0.02571684           0.03239451  1.00000000
## pH                           -0.14585390          -0.23841310  0.01168608
## sulphates                    -0.18845725          -0.27572682  0.25947850
## alcohol                      -0.17983843          -0.26573964 -0.68674542
## quality                       0.05546306          -0.04138545 -0.30585791
## total_acidos                 -0.30037627          -0.34984487  0.46873149
## indicador_acidez             -0.15636284          -0.15353249  0.72228787
##                               pH    sulphates      alcohol     quality
## X                    -0.23309378 -0.246635372  0.197157034  0.09077151
## fixed.acidity        -0.25270047  0.299567744 -0.095451523 -0.07674321
## volatile.acidity      0.26145440  0.225983680 -0.037640386 -0.26569948
## citric.acid          -0.32980819  0.056197300 -0.010493492  0.08553172
## residual.sugar       -0.26731984 -0.185927405 -0.359414771 -0.03698048
## chlorides             0.04470798  0.395593307 -0.256915580 -0.20066550
## free.sulfur.dioxide  -0.14585390 -0.188457249 -0.179838435  0.05546306
## total.sulfur.dioxide -0.23841310 -0.275726820 -0.265739639 -0.04138545
## density               0.01168608  0.259478495 -0.686745422 -0.30585791
## pH                    1.00000000  0.192123407  0.121248467  0.01950570
## sulphates             0.19212341  1.000000000 -0.003029195  0.03848545
## alcohol               0.12124847 -0.003029195  1.000000000  0.44431852
## quality               0.01950570  0.038485446  0.444318520  1.00000000
## total_acidos         -0.23242748  0.309034892 -0.096319946 -0.09215819
## indicador_acidez     -0.25260066  0.254873895 -0.571656521 -0.29061782
##                      total_acidos indicador_acidez
## X                     -0.40677256      -0.42795508
## fixed.acidity          0.99813832       0.86193316
## volatile.acidity       0.27811079       0.25785683
## citric.acid            0.29576322       0.24619930
## residual.sugar        -0.12249215       0.08299906
## chlorides              0.31713084       0.39075615
## free.sulfur.dioxide   -0.30037627      -0.15636284
## total.sulfur.dioxide  -0.34984487      -0.15353249
## density                0.46873149       0.72228787
## pH                    -0.23242748      -0.25260066
## sulphates              0.30903489       0.25487389
## alcohol               -0.09631995      -0.57165652
## quality               -0.09215819      -0.29061782
## total_acidos           1.00000000       0.86464700
## indicador_acidez       0.86464700       1.00000000

Nenhuma variável sozinha tem uma correlação muito forte com qualidade. As correlações mais fortes encontradas entre as caracteristicas foram alcool com densidade, total de dioxido sulfurico e indicador de acidez, densidade. Vou avaliar a correlação de qualidade com as principais caracteristicas. Primeiro verificando qualidade x alcool:

Percebo que a partir da qualidade avaliada em 6 (e poderiamos dizer que bons vinhos devem ter nota no minimo 6) o valor minimo de alcool aumenta conforme a qualidade aumenta. Para qualidade com nota 9 (maior nota no dataset) a variação é muito pequena na quantidade de alcool, varia entre 12 e 13(isso pode acontecer pois poucos vinhos tem essa nota). Também percebo que para notas de qualidade de 3 a 5 o valor médio do alcool vai caindo e partir de 6 vai aumentando. Então entendo que não existe uma correlaçao direta de quanto maior a quantidade de alcool maior a média qualidade do vinho, apenas a partir da nota 6 isso parece ser verdadeiro. A nota 5 é a nota com menor quantidade média de alcool e também a nota que possui mais outliers com altos valores de alcool.Estou me perguntando qual outra caracteristiaca pode estar influenciando nessa correlação entre alcool e qualidade.

A lógica para ph parece ser a mesma do alcool. A partir da nota 5 a média de ph vai aumentando conforme a nota de qualidade aumenta, sendo a variação da nota 9 a menor. Já com as notas mais baixas, 3 a 5, a média vai caindo conforme a nota vai aumentando. Ou seja, ph mais alto deixa a qualidade do vinho muito boa ou muito ruim. Deve haver outra caracteristica influenciando na qualidade.

Não consegui identificar nenhum padrão no açucar. Como o açucar é diferente para vinhos brancos e tintos vou gerar um gráfico para cada tipo de vinho:

Percebe-se que nos vinhos tintos a média de açucar é quase a mesma para todas as pontuações de qualidade. Também percebo que existem muitos outliers. Já nos vinhos rancos existe uma diferença considerávelda média de açucar para as diferentes pontuação de qualidade. A partir da nota 5 os valores de açucar começam a cair conforme a nota aumenta. No entanto a média da nota 8 é ligeiramente maior do que a média da nota 7.

A variação de total de acidos parece diminuir conforme a nota aumenta. A média é praticamente a mesma entre as notas 6,7 e 8.

## Warning: Removed 1 rows containing non-finite values (stat_boxplot).

Após alterar o limite do eixo y fica perceptivel que partir da nota 5 a média de densidade vai caindo, sendo que a menor média é da nota 9. Parece o mesmo comportamento do Alcool e Ph.

Apresenta o mesmo comportamento do Álcool, conforme a nota aumenta a média do indicador de acidez vai caindo a partir da nota 5.

## Warning: Removed 3 rows containing non-finite values (stat_smooth).
## Warning: Removed 3 rows containing missing values (geom_point).

Parece haver uma correlação entre alcool e densidade no entanto os valores para densidade variam muito para cada valor de alcool,

## Warning: Removed 5 rows containing non-finite values (stat_smooth).
## Warning: Removed 5 rows containing missing values (geom_point).

A relação entre ácidos e açucares tem um formato de V. Niveis de açucar muito baixos tem uma relação linear mais vertical com o total de acidos. Vinhos com niveis de açucar a partir de 2,5 possuem uma relação linear mais horizontal com o total de acido.

## Warning: Removed 2 rows containing non-finite values (stat_smooth).
## Warning: Removed 93 rows containing missing values (geom_point).

A relação de ácido citrico e ácido fixo parece girar em torno de um ponto de acidez média para ambos.

A relação do ácido citrico e ácido volátil segue uma linearidade. No entanto quando o ácido volátil aumenta muito essa linearidade se perde e os niveis de ácido cítrico caem bastante.

## Warning: Transformation introduced infinite values in continuous y-axis

## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Removed 151 rows containing non-finite values (stat_smooth).

Parece haver uma certa relação linear entre ácido citrico e ph. Acido citrico se mantem constante conforme ph se altera.

## `geom_smooth()` using method = 'gam'
## Warning: Removed 147 rows containing non-finite values (stat_smooth).
## Warning: Removed 163 rows containing missing values (geom_point).

Conforme o açucar aumenta mais denso o vinho fica. Isso deve ser explicado pelo peso do açucar.

## Warning: Removed 147 rows containing non-finite values (stat_smooth).
## Warning: Removed 161 rows containing missing values (geom_point).

Existe uma corelação forte entre densidade e cloridios. Conforme os cloridios aumentam, a densidade aumenta.

A relação entre cloridios e sulfatos também parece ser linerar. Conforme os cloridios aumentam, os sulfatos aumentam.

O mesmo ocorre na relação entre cloridios e ácidos totais.

## Warning: Removed 1 rows containing non-finite values (stat_smooth).
## Warning: Removed 1 rows containing missing values (geom_point).
## Warning: Removed 8 rows containing missing values (geom_smooth).

Parece haver uma pequena tendencia entre alcool e açucar. Conforme Alcool aumenta, açucar diminui.

Bivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. How did the feature(s) of interest vary with other features in the dataset?

Após nota 5, Alcool e Ph aumentam conforme a nota de qualidade aumenta. A média do valor de açucar para vinhos brancos não se altera conforme alteramos a qualidade mas a do vinho tinto sim. No entanto não é possível indicar alguma correlação ainda entre quantidade de açucar e qualidade. As maiores relações com qualidade parecem ser entre alcool, densidade, açucar, acidos e cloridios. As variaveis sozinhas com qualidade não tem correlação muito forte, precisarei avaliar como as caracteristicas quando combinadas alteram a qualidade.

Did you observe any interesting relationships between the other features (not the main feature(s) of interest)?

Existe uma correlação entre alcool e densidade. Enquanto o total de acido diminiu a nota de qualidade do vinho aumenta para notas acima de 5.

What was the strongest relationship you found?

Entre alcool e densidade.

Multivariate Plots Section

Vou avaliar as variáveis que pareceram ter alguma correlação durante a analise Bivariate.

Para os gráficos abaixo ajustei o jitter e niveis de alpha para visualizar tendencias e previnir overplotting. Também ajustei o limite de alguns eixos para remover outliers. Para as medidas onde identifiquei a necessidade de transformação (log e square root) eu apliquei nos gráficos para melhorar a visualização.

## Warning: Removed 3 rows containing missing values (geom_point).

Os vinhos de densidade mais baixa possuem menor nivel de acidez e vinhos com densidade mais alta possuem maiores niveis de acidez.

## Warning: Removed 3 rows containing missing values (geom_point).

Vinhos mais densos possuem menos açucares, vinhos menos densos são mais secos.

## Warning: Removed 3 rows containing missing values (geom_point).

Quanto mais alcool e menos densidade maior o nivel de qualidade. Vinhos muito densos e com pouco alcool tendem a ser pior avaliados.

## Warning: Removed 3 rows containing missing values (geom_point).

Parece que quanto menos denso e mais alcool o vinho tem, menos cloridios ele possui.

## Warning: Removed 3 rows containing missing values (geom_point).

Os vinhos brancos tem mais alcool e são menos densos que os vinhos tintos no geral.

## Warning: Removed 5 rows containing missing values (geom_point).

Na relação entre açucar e acidos, os cloridios parecem ter algum efeito. Nos niveis de açucar menor que 2,5 onde a relação entre açucar e acidos é mais vertical o nivel de cloridio é mais alto. Quando o nivel de açucar passa de 2,5 e a relação entre açucar e total de acidos é mais horizontal, os niveis de cloridios são mais baixos.

## Warning: Removed 5 rows containing missing values (geom_point).

Quanto mais açucar maior a densidade, no entanto, onde se tem pouco açucar mas alto volume de acidos a densidade também é alta.

## Warning: Removed 5 rows containing missing values (geom_point).

## Warning: Removed 5 rows containing missing values (geom_point).

Os niveis de alcool são mais altos para menores niveis de açucares e vão diminuindo conforme a quantidade de açucar diminui. Ao quebrar o gráfico pelos niveis de qualidade visualizo que para qualidades mais baixas o nível de alcool tende a permanecer mais baixo independente da quantidade de açucar.

## Warning: Removed 77 rows containing missing values (geom_point).

## Warning: Removed 76 rows containing missing values (geom_point).

A relação entre acido fixo e acido citrico parece ser mais linear para vinhos de qualidade mais altas (2 e 3 gráfico) do que para vinhos de baixa qualidade. Para os vinhos avaliados com maior qualidade, quanto maior o ácido fixo maior os niveis de açucar. Para os vinhos de baixa qualidade, quanto maior o nivel de ácido fixo e menores os niveis de ácido citrico menor parece ser os valores de açucar.

## Warning: Removed 81 rows containing missing values (geom_point).

## Warning: Removed 87 rows containing missing values (geom_point).

Quanto maiores os niveis de acido fixo e acido citrico maior aparenta ser os valores de cloridios. Quando fazemos a quebra por qualidade percebe que a relação parece ser mais linear para qualidades mais altas do que para qualidades mais baixas.

## Warning: Removed 161 rows containing missing values (geom_point).

Quando os niveis de açucar são baixos, parece haver uma relação linear entre densidade e total de acidos.

## Warning: Removed 161 rows containing missing values (geom_point).

Quanto menor os niveis de acido e de densidade, melhores os niveis de qualidade.

Tem muita coisa acontecendo nesse gráfico mas o que mais me chama a atenção é nos quadrante de alta densidade e baixo alcool a qualidade tende a ser menor do que nos quadrantes de baixa densidade e alto alcool.

O primeiro gráfico mostra a relação entre as variáveis para os vinhos de qualidade 7 a 9. O Segundo gráfico mostra a relação entre as variáveis para os vinhos de qualidade 2 a 4. O que percebo é que existe um padrão nas relações para os vinhos de maior qualidade, para os vinhos de menor qualidade as linhas se cruzam muito mostrando uma falta de padrão.

## Warning: Ignoring unknown parameters: binwidth, bins, pad

Nas analises univariate fui marcando quem eram os outliers que eu estava eliminando nas visualizações. Ao comprar a qualidade desses outliers percebemos que todos possuem qualidade de média para ruim.

Multivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. Were there features that strengthened each other in terms of looking at your feature(s) of interest?

Ao olhar as correlações entre as variáveis percebo que todas são relativamente baixa. A maior correlação é entre alcool e densidade. No entanto ao cruzar cada variavel com qualidade é percebido que quanto maior o alcool maior a qualidade, quanto maior o alcool menor a densidade e por consequencia a qualidade. Quanto mais alcool tem o vinho menos acido ele é, mais açucar ele tem e mais cloridios. Quanto menos ácido e denso melhor a qualidade do vinho. Quanto mais ácido maior os niveis de cloridio.

Were there any interesting or surprising interactions between features?

O que percebo é que nao existe uma relação linear entre as variáveis e a qualidade. No entanto é na harmonia dos componentes quimicos que a qualidade é percebida. Existe um ponto de equilibro entre cada componente para que exista qualidade, quando não existe um padrão ou ponto de equilibrio é onde é percebido uma pior qualidade.

OPTIONAL: Did you create any models with your dataset? Discuss the strengths and limitations of your model.


Final Plots and Summary

Plot One

## Warning: Removed 3 rows containing missing values (geom_point).

Description One

Existe uma forte relação entre álcool e densidade. É a relação mais forte entre todas as variáveis. Quanto maior a quantidade de alcool menor a densidade. Quanto maior a quantidade de alcool, maior é a qualidade percebida do vinho.

Plot Two

## [1] "Parallel Coordinet Plots Best Quality Wines"

## [1] "Parallel Coordinet Plots Worst Quality Wines"

Description Two

O primeiro gráfico mostra a relação entre as variáveis para os vinhos de qualidade 7 a 9. O Segundo gráfico mostra a relação entre as variáveis para os vinhos de qualidade 2 a 4. O que percebo é que existe um padrão nas relações para os vinhos de maior qualidade, para os vinhos de menor qualidade as linhas se cruzam muito mostrando uma falta de padrão. A conclusão que tiro é que os melhores vinhos tem uma harmonia entre todos os componentes, seguem um certo padrão. Os vinhos de pior qualidade falham nessa harmonia, entendo que não é possivel crirar um modelo linear já que a influência da qualidade do vinho se dá pela junção de vários fatores.

Plot Three

Description Three

Elevei a potencia de 2 a qualidade para que o tamanho das bolas ficassem perceptivelmente diferentes. Nos quadrante de alta densidade e baixo alcool a qualidade tende a ser menor do que nos quadrantes de baixa densidade e alto álcool. Perceb-se a relação entre qualidade, açucar, densidade, acidez e alcool.


Reflection

A maior dificuldade durante essa analise foi a falta de uma correlação muito forte entre as variáveis e entre as variáveis e a qualidade dos vinhos. Sempre que procurava o que podia explicar a qualidade do vinho não encontrava uma resposta. Foi preciso cruzar muitas variáveis ao mesmo tempo para começar a entender melhor as relações entre as varíáveis. E ao se cruzar muitas variáveis os gráficos ficavam poluidos e confusos.

A falta de amostra de vinhos de maior qualidade também dificultou a analise, basei toda a analise entendendo que vinhos com nota 6 e 7 são bons vinhos mas não acredito que essa seja uma boa prática. Vinhos avaliados com 6 e 7 deveriam ser considerado vinhos medianos e não ótimos vinhos.

Tentei criar um modelo baseado em regressão linear mas como era esperado não deu certo. Acredito que seja necessário o uso de um classificador e um algoritimo de previsão como árvore de decisão ou redes neurais para conseguir prever a nota de um vinho com base nos seus componentes quimicos.

A minha consluão final é de que é possivel identificar a qualidade de um vinho com base nas suas caracteristicas quimicas mas será necessário algoritimos de aprendizagem de máquina para isso.